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Формування виб!рок 13 просторовою локал1защею 
та перетворенням на узагальнену в1сь 


В статье предложено новое решение актуальной научно-практической задачи формирования выборок 
для автоматизации классификации данных. Впервые предложен метод формирования выборок, который 
осуществляет иерархическую обработку выборки данных порционно и проецирует данные на обобщённую 
ось с учётом их глобальной и локальной топологии, что позволяет существенно сократить объём выборки 
и существенно уменьшает требования к ресурсам ЭВМ. 
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Введение 
Синтез диагностических и распознающих моделей на основе методов вычисли- 


тельного интеллекта в ряде прикладных задач предполагает необходимость опериро- 
вать выборками данных большого объема. Это влечёт за собой существенные затраты 
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времени на обработку данных, а также требует наличия значительных объемов опе- 
ративной и дисковой памяти ЭВМ. Поэтому актуальной задачей является сокращение 
размерности выборок данных [1-5]. 

Традиционным и наиболее широко применяемым подходом при решении данной 
задачи является использование методов отбора информативных признаков [1-5], кото- 
рые удаляют из исходного набора наименее информативные признаки, и методов 
конструирования признаков [5], [6], которые заменяют исходный набор признаков 
рассчитанным на его основе набором искусственных признаков меньшего размера. 

Однако, если изначально заданный набор признаков не является избыточным 
либо объем выборки (число экземпляров в ней) чрезвычайно велик для представления 
и обработки в памяти ЭВМ, применение этих методов оказывается чрезвычайно зат- 
руднительным, а результаты их работы либо приводят к потере существенной для 
дальнейшего анализа информации, либо не позволяют сохранить исходную интер- 
претабельность данных. 

Другим, существенно реже используемым на практике, подходом при решении 
данной задачи является сокращение объёма выборки. Как правило, это реализуется 
посредством извлечения случайных подвыборок из исходной выборки [7-9], что 
может приводить к формированию нерепрезентативных в топологическом смысле 
выборок вследствие невключения в них редко встречающихся экземпляров на границах 
классов, представленных в исходной выборке. 

В [10-13] автором предложены переборные и эволюционные методы формиро- 
вания выборок, а также модель (комплекс критериев) качества выборки, которые 
позволяют обеспечить формирование из исходной выборки подвыборок меньшего 
объема, обладающих в системе используемых критериев наилучшими свойствами. 
Однако для выборок очень большого объема применение данных методов и модели 
оказывается весьма затратным как с вычислительной точки зрения, так и с точки зрения 
ресурсов оперативной и дисковой памяти. 

Целью данной работы является создание метода формирования и редукции 
выборок, позволяющего обрабатывать исходные выборки большого объема. 


Постановка задачи 


Пусть мы имеем исходную выборку Х = <х, у> — набор 5 прецедентов о зависи- 
мости у(х), х = {х1, у= У}, 5 =1,2, ..., 9, характеризующихся набором М№ входных 
признаков {х;}, = 1,2, ..., М, где] — номер признака, и выходным признаком у. 

Каждый 5-й прецедент представим как <х’, у>, х={х’;}, где х’, — значение /-го 
входного, а у’ — значение выходного признака для 5-го прецедента (экземпляра) выборки, 
УЕ {1,2,..., К\, где К — число классов, К>1. 

Тогда задача формирования обучающей выборки может быть представлена как 
задача выделения из исходной выборки Х = <х, у> подвыборки ра ЖЕ меньшего 
объёма 5'<$, обладающей наиболее важными свойствами исходной выборки. 

Поскольку для задач автоматизации классификации данных наиболее важным 
является сохранение топологии классов, то формируемая подвыборка должна обес- 
печивать сохранение экземпляров исходной выборки, находящихся на границах классов. 


Метод формирования выборок 


Для обнаружения экземпляров, находящихся на границах классов, в общем 
случае необходимо решить задачу кластер-анализа, что требует определения рассто- 
яний между всеми экземплярами выборки. Это, в свою очередь, требует либо загрузки 
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всей выборки в память ЭВМ (что не всегда возможно из-за ограниченного объёма 
оперативной памяти), либо многократных проходов по исходной выборке (что вызы- 
вает значительные затраты машинного времени), а также приводит к необходимости 
хранить и обрабатывать матрицу расстояний между экземплярами большой размерности. 

Для устранения отмеченных недостатков предлагается заменить обработку экзем- 
пляров на обработку их описаний в виде числовых скаляров, которые характеризуют 
положение экземпляров в пространстве признаков. При этом, заменив экземпляры, 
характеризующиеся М признаками, на представления в виде скаляров, мы отобразим 
№ -мерное пространство признаков в одномерное пространство. 

Исходная выборка, будучи отображённой в одномерное пространство, позволит 
выделить на одномерной оси интервалы её значений, соответствующие кластерам 
разных классов в исходном М-мерном пространстве. Определив границы интервалов 
на одномерной оси, можно найти ближайшие к ним экземпляры, которые и составят 
формируемую подвыборку. 

Преобразование экземпляров исходной выборки на обобщённую ось предлага- 
ется осуществлять с двухуровневой иерархией: в начале блоков-кластеров относи- 
тельно координат в пространстве интервалов признаков, а затем внутри блоков отно- 
сительно координат в пространстве признаков. Такое преобразование позволит лучше 
сохранить топологию распределения классов в пространстве признаков. 

Поскольку в процессе отбора экземпляров для формирования выборок необхо- 
димо выполнять весьма трудоёмкие по времени операции сортировки экземпляров, 
для сокращения затрат времени предлагается выполнять сортировку и отбор экземп- 
ляров небольшими группами отдельно для каждого блока-кластера, после чего объе- 
динять результаты таких обработок в обучающую выборку. 

Приведенные выше идеи лежат в основе предлагаемого метода. 

Этап определения характеристик исходной выборки. Просматривая экземпляры 


исходной выборки Х найти минимальные и максимальные значения для каждого 


1-го признака х;: ху" = шш {5х7}, ху” = шах {ху}, 7=1,2,...,М. 
5=1,2,..,9 5=1,2..., 

Этап формирования разбиения пространства признаков. Вначале необходимо 
определить КА — число интервалов для разбиения оси каждого признака и О — число 
прямоугольных областей в пространстве М признаков. 

Очевидно, что, с одной стороны, число кластеров-областей в пространстве при- 
знаков О не может быть меньше числа классов К. 

С другой стороны, число областей О должно быть меньше числа экземпляров в 
исходной выборке 5. 

Число интервалов, на которые разбиваются оси значений признаков, для регуляр- 
ного разбиения может быть определено как & = ^'О ‚ но не может быть меныше двух. 


При этом Ки О должны быть целыми положительными числами. 
М. 
Таким образом, исходя из того, что КЗО <5би2<К’=О, эвристически зададим 
правило для определения числа интервалов регулярного разбиения пространства 


признаков: 
1 9,5 шо5 


е № |если|е № > тах { [№7 |2} 


Е= 
2, иначе, 


где © - заданная константа, регулирующая число формируемых областей, 
0< 0 <1. Для малых выборок целесообразно задавать (+ = 0,8 ... 0,9, а для больших — 
© = 0,3 ... 0,5. 
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Далее следует сформировать массив 4, сопоставляющий сочетанию номеров 
интервалов признаков {А}, где А, — номер интервала значений по /-у признаку, номера 
прямоугольных блоков-кластеров в пространстве признаков 4({%,}). 

Этап отображения экземпляров выборки на обобщённую ось. Для каждого 
5-го экземпляра исходной выборки <х°, у^>, 5=1, 2, ..., 5: 

— по каждому /-у признаку х, определить номер интервала значений признака, в 
который попадает текущий экземпляр: 


[Вей — хим | бий — хи) Во бе хи®) > 0,5; 


Е = 
/ 
ГВ, О 0,5 иначе, 


К 
Г. В, — ах шп $ 
И а, 
— определить номер области (прямоугольного блока) в исходном пространстве 
КИ 5 5 
признаков, в которую попадает 5-й экземпляр: 4` =9({%,}); 


— определить координату экземпляра по обобщённой оси: 


и 5 
5 И 5 2 1 ры 1 лы шт 5 —1 52 
ж = У, -1) и: а +. Фа РОВ сэ) 
Е | ‚=1 
уе 1 
7= 
и 5/_шшт 5 —1 
" 2.) + (А-В, ) 
+ — агссо$ = 
кп 


+в 
= 1 =! 1 1 у 

Первый компонент данного преобразования определяет квадрат расстояния 
блока текущего экземпляра от начала координат В пространстве номеров интервалов 
признаков, второй компонент определяет взвешенный уг ОЛ между блоком текущег (®) 
экземпляра и началом координат В пространстве номеров интервалов признаков, третий 
компонент определяет взвешенный квадрат нормированног (®) расстояния от текущег (®) 
экземпляра до начала координат внутри блока-кластера, К которому ОН принадлежит, 
В пространстве признаков, а четвёртый компонент — взвешенный Ъугол между экземп- 


ляром и началом координат в пространстве признаков; 
5 
— занести в подвыборку ©9 для соответствующей области 4’ текущий экземпляр 


5 5 
с координатой по обобщённой оси в виде кортежа <х^», 5, /\>:0)9 =09 ц) <, 5, у>. 
Этап анализа экземпляров кластеров по обобщённой оси. Последовательно для 


каждой р-й области ОР, р=1,.2,..., О: 

— упорядочить экземпляры-кортежи <х°», 5, /^> по возрастанию координаты на 
обобщённой оси; 

— просматривая экземпляры-кортежи <х^», 5, /^> р-й области на обобщённой оси 
слева направо (от меньших значений координаты по обобщённой оси к большим), 
выполнять отбор экземпляров: если текущий экземпляр-кортеж <х^», 5, у> является 
крайним слева или справа по обобщённой оси для данного блока, либо если ближайшие 
к экземпляру левый и правый экземпляры принадлежат к разным классам, то включить 
его с добавлением номера области экземпляра в набор кортежей обучающей выборки: 
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06 =Об {< 5, У, 9>| —Нх# :х# ОР, в = 5, (5 <) м (>), 


1 


Оу а 9х1 х ОР: хх! < хх! Е, 


(6) 
Е ЖЕ хе 9 хе-хе = у Уха 1х Е ОРа 5, хй <; 
! 0, иначе, 


т, = а ре 
0, иначе. 

Этап анализа экземпляров обучающей выборки по обобщённой оси. Для экзем- 
пляров-кортежей набора кортежей обучающей выборки < б выполнять: 

— упорядочить экземпляры-кортежи <х°», 5, у’, 4°> по возрастанию координаты 
на обобщённой оси х**; 

— просматривая экземпляры-кортежи на обобщённой оси слева направо (от 
меньших значений координаты по обобщённой оси к большим) выполнять отбор 
экземпляров: если текущий экземпляр-кортеж не является крайним слева или справа 
и ближайшие к экземпляру левый и правый экземпляры принадлежат к тому же классу, 
то исключить экземпляр из обучающей выборки. 

Упорядочить экземпляры-кортежи обучающей выборки по возрастанию номера 
экземпляра в исходной выборке. 

Этап формирования обучающей и тестовой выборок. 

Просматривая исходную выборку Х, поместить текущий экземпляр <х’, у> в 


* Е Е 
обучающую выборку Х ‚если его номер содержится в 5: Х=Х У | = 
<, 5, У, 4> Об }, в противном случае — поместить экземпляр <’, у> в тестовую 


выборку ххх я {7, У>|[ 8 37.5, у, 4> Оз}. 


Анализ сложности метода 


Для определения целесообразности применения предложенного метода для 
конкретной задачи на практике, используя нотацию Ландау в так называемом «мягком 
виде», оценим сложность этапов предложенного метода. 

Временная сложность предложенного метода составит О(З5?М + М№МКО($ + 1) + 
29№5-+ 60 +45 + 51(?0`))), а пространственная сложность — О(3№М-+ 5 + МОК + 350). 

Для упрощения оценок сложности метода введем следующие допущения. Пос- 
кольку №<<5, примем, например, М = 0,015. 

Примем также К =2, © = 0,5. 

11(0,55) 
Тогда к=е М =(0,55)” - = К=0,55. С учётом принятых допущений полу- 
100 
чим оценки сложности метода: временной - 0(0,035°+0,00557 (0,55) 5 
100 


(5+1)+0,2952+5(7+05))), пространственной — 0(1,035+0,00552 (0,55) 5 +1,552). 
100 


Поскольку 5>>100, с запасом примем (0,55) ° = 2, тогда получим оценки слож- 


ности метода: временной -— 0(0,0453 +0,35?+75+51(25)), пространственной — 
0(1,035+1,515?). 
Обозначим размерность обучающей выборки и = №5 ® 0,0157. 
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Тогда, С учётом принятых допущений, округляя, получим оценки сложности 


метода: временной — 0(40и^/И +30и+100^/И +0,5/и и), пространственной — 0(151и+10,3^/"). 

Для предложенного метода представляет практический интерес определить, 
насколько обработка исходной выборки с разбиением на области-кластеры позволяет 
сократить затраты времени на сортировку экземпляров по сравнению с сортировкой 
всех экземпляров выборки по обобщённой оси. 

При использовании эффективного метода сортировки вычислительную слож- 
ность сортировки всей выборки по обобщённой оси можно оценить как (5115), вычи- 
слительную сложность обработки экземпляров подвыборки можно оценить как 


5. о 
и ‚ Тогда вычислительную сложность сортировки всех подвыборок ДЛЯ 


“5 п 5 
кластеров можно оценить как О). 

В результате можно оценить, во сколько раз повышается скорость сортировки 
экземпляров с разбиением на области-кластеры по сравнению с сортировкой всех экзем- 
пляров выборки по обобщённой оси и определить критерий выбора числа кластеров: 


= о = 1085 5 —> шах, 
5 ш — О 
О>К,М О >2. 


Поскольку на практике значение 5 является фиксированным (заданным), то 
задача оптимизации времени сортировки сводится к определению такого значения О, 
при котором Достигается максимум Е при заданных ограничениях. 


Эксперименты и результаты 


Для экспериментальной проверки работоспособности предложенного метода 
была разработана его программная реализация, с помощью которой проводились 
эксперименты по сокращению объема реальных выборок данных для различных прак- 
тических задач [14-16], а также синтетических выборок, сгенерированных по заданным 
правилам, характеристики которых приведены в табл. 1. 


Таблица 1 — Характеристики задач и сформированных выборок 


Задача / выборка Км | 55 
Классификация автотранспортных средств по изображению [14] |2 | 26 | 0,13 
Диагностирование патологий плода по кардиотокограмме [15] 3.29 0,09 
Предсказание типа лесного покрова [16] 7 | 54 | 0,08 
Синтетическая выборка 1 21 10 | 0,14 
Синтетическая выборка 2 2 |: 90. |: 0:12 
Синтетическая выборка 3 2 | 100 | 0,13 


Результаты проведенных экспериментов подтвердили работоспособность и 
практическую применимость предложенного метода, а также программного обеспе- 
чения, реализующего его. 

Как видно из табл. 1, использование предложенного метода позволяет в среднем 
В 8 — 9 раз сократить объём выборки, не требуя при этом загрузки в память ЭВМ исход- 
ной выборки, а также многочисленных проходов по исходной выборке, что сущест- 
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венно снижает требования к ресурсам ЭВМ, обеспечивая при этом сохранение в сфор- 
мированной подвыборке важнейших для последующего анализа топологических 
свойств исходной выборки. 

Проведенные эксперименты также показали, что использование в предложенном 
методе разбиения выборки на подвыборки для кластеров позволяет получать 
выигрыш в скорости сортировки по обобщённой оси в 14 - 20 раз по сравнению с 
сортировкой всей выборки. 


Выводы 


В статье предложено новое решение актуальной научно-практической задачи 
формирования выборок для автоматизации классификации данных. 

Научная новизна результатов работы заключается в том, что впервые предложен 
метод формирования выборок, который осуществляет иерархическую обработку 
выборки данных порционно и проецирует данные на обобщённую ось с учётом их 
глобальной и локальной топологии, не требуя при этом загрузки в память ЭВМ исход- 
ной выборки, а также многочисленных проходов по исходной выборке, что позволяет 
существенно сократить объём выборки, существенно уменьшает требования к ресур- 
сам ЭВМ. 

Практическая значимость результатов работы состоит в том, что разработано 
программное обеспечение, реализующее предложенный метод формирования выборок, 
а также проведены эксперименты по их исследованию при решении практических 
задач, результаты которых позволяют рекомендовать разработанный метод для исполь- 
зования на практике при решении задач интеллектуального анализа данных. 

Дальнейшие исследования могут быть сосредоточены на разработке новых 
способов формирования описаний экземпляров в виде обобщённых показателей, раз- 
работке реализаций предложенного метода для параллельных вычислительных систем 
и распределенной обработки данных. 

Работа выполнена в рамках госбюджетной научно-исследовательской темы 
Запорожского национального технического университета «Интеллектуальные инфор- 
мационные технологии автоматизации проектирования, моделирования, управления 
и диагностирования производственных процессов и систем». 
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5.А. бирройп 
затре Гогтайоп уий 5раНа/ Госай2аноп 


апа ТгапуюгтаНоп ю Фе СепегаП2е4 Ах15 

ТБе зупе$1$ оЁ Фазпо$Ис ап4 райеги гесогп171т® по4е]$ Базе оп фе те#фо4$ оЁ 
сотршанопа[ шеШеоепсе ш зоте аррИсаНнопз геаитез ю орегае ул а |агое даа затр/ез. 
ТЬ$ ещаПз а у1етиЙсапЕ оуег-ехрепа ге оЁ Ите Гог Ше ргосеззше ог даа, ап4 геаите а 
1агое атоцпе оР тетогу ап4 415К зрасе оРа сотриег. 

ТВе ригрозе оЁ Пе рарег 1$ ю 4еуе]ор а тефоа юг Фе Ююгтайоп ап4 гедисйоп оЁ 
затр[ез, аПо\ по фо Вап е а 1агое ато оЁ фе опотта| затр!е. 

ТБе пе\и зо[аНоп оЁ асфша] зслепНЯс ап4 ргасйса| {аз К оР затр!е Гогтайоп ю ащютае 
дайа с1а551Ясайоп Ваз Бееп ргорозед. 

Те зс1епиЯс поуеКу оЁ Фе уогК Пез ш Ше Рас фа Ше тефо4 оЁ затре юге 
УИ а ШегагсШса! даёа затр!е ргосеззте Бу рогйоп$ ап рго]есйп® Фе даёа оп е оепе- 
га те ах1$ ассог4те 0 феш о1офа!| ап4 1оса| {ороосу ап4 40 по гедите доулоаЯ те 0 
фе сотрщег тетогу оЁ фе опотпа| затре, ап4 питего$ раззазез оп Фе опотпа| затр/е 
13 Нг5Иу ргорозед. Мефо4 шзеа4 оЁ пе опетша| ехатр]ез ргосезз феш 4езсирНоп$ ш 
{бе югт оЁ патегс зсаЙагз ФаЁ спагасенте Фе 5айа$ оЁ ехарпез ш Ше Ееавие зрасе. 
п 15 сазе, ап №-Аптеп$1опа| еафге зрасе 15 гапзогте 0 опе-дитепзюпа! зрасе. ш 
фе опе-4итепз1опа| зрасе # сап Бе 14епиНей 1е пцегуа|5 оЁ Те сепега|7те4 ах1$ соггез- 
ропате тю сазегз оЁ 41 егепЕ с1а5зез ш Фе опеша| №-4итеп$1опа| зрасе. Ехатр/ез пеагезЕ 
{о Ше Богдегз оР Пе пщегуа[5 сап Бе шс[аде т фе Гогте4 зиб-затр!е. [ аПо\’з ю $1е11- 
Нсап Чу гедисе Фе 17е оЁ Ше затре ап4 з1ютИсапЙу гедисез Фе гезоигсе гедитетет5 
ога сотршег. 

ТБе ргасйса!| з1от!Йсапсе оЁ фе ууок Пез ш фе Рас{ фа{ И Ваз Бееп деуеоре4 зоЙ\хаге 
Фа пар!етеп{$ Фе ргорозе4 тешо@ оЁ затр!е оюгтаНоп ап4 Ше ехреитеп{5 оп Фет 
тезеагсН ай ргасйса| рго ет зо]уше раз Бееп сопдисе4, гези 5 оЁ уеЬ аПоуу ю гесот- 
теп4 фе 4еуе]оре тео4 Гог изе ш ргасйсе аё зо]уше даа тште ргоЫеиз. 

Еанфег гезеагсн соц оси оп фе 4еуе!ортепЕ оЁ пе\у ше#о@$ 10 пи ехатшр/е 
дезсирноп ш Ше оепегаП7еЯ теазигез, ап4 оп 1е деуе!ортепй оЁ паретещаноп оЁ Фе 
тефо4 Гог рагаПе| апа аз ще4 сотрийпе. 
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